剛剛擊破摩爾定律的輝達,卻要撞上 scaling laws 的牆?相當一部分評論家和分析師是這麼認為的。即便你不同意,也不能怪他們,畢竟在英特爾的身上,大家剛剛目睹了摩爾定律似乎「失效」了。在最近兩次財報電話會議(25Q3、Q4)中,每次都有不止一位分析師向輝達 C-level 拋出同一類問題:神經網路的 scaling law 是否不再起到作用了?他們真正想問的是:輝達還能否續寫連續兩個財年的瘋狂增長?這就是在業界甚囂塵上的 scaling law 撞牆猜測。簡而言之,機器學習的 scaling law 的指的是隨著模型大小(參數量)、資料集、訓練成本這三大要素的提升,大模型的性能也會有所提升(具體細節不展開)。而許多分析師看到 DeepSeek 震驚世界的成果之後,得出一種新的猜測,認為進一步訓練天量參數和超巨量資料集的大語言模型的意義沒那麼大了,蒸餾現有超大模型的性能也很不錯,完全事半功倍。而放在輝達的語境下,考慮到它是 GPT 技術催生和領導的大語言模型爆發的最大受益者,最近連續幾個季度的收入又過分嚴重依賴資料中心;現在大模型的蒸餾新玩法出現,似乎不再需要那麼多 Hopper、Blackwell,以及輝達早已畫好路線圖的新架構顯示卡,進而直接導致輝達圖形計算方案產品的市場需求從高位滑落,最近兩個財年的瘋長神話不再續寫。CEO 黃仁勳理解這種「恐慌」,畢竟公司股票在過去一年裡給太多人賺了太多錢。但他不理解人們為什麼會有 scaling law 不再適用的想法。在和軟銀創始人孫正義的談話中,黃仁勳提到,只要投入足夠的計算資源,採用更複雜的演算法,AI 的智能水平還能夠繼續提升。上一財務季度的電話會議裡,黃仁勳又提出了一個關於 scaling law 的新思考框架,具體來說有三個部分:預訓練 scaling、後訓練 scaling、推理 (包括模型推理 inference 和思維推理 reason)scaling。而在今天的輝達 Geforce 技術大會(GTC)上,他進一步闡釋了這個新的 scaling law 框架:通過 DeepSeek,人們用上了能夠推理 (reason),具有思維鏈的 AI。這和 ChatGPT 有本質的區別。ChatGPT 回答很多複雜問題的時候答案都是錯的,因為答案是一次性生成的,token 是一個接一個吐出來的。而現在 AI 能夠推理,每個 token 都返回到上一步重新處理,一次又一次的重複,最終形成一個思維鏈 (chain of thought)」「我們不只是 token 吞吐量提升了 10 倍,同時也需要 10 倍更快的計算(註:中和更多 token 消耗的時間)。最後的結果是,我們需要 10 x 10 = 100 倍更多的算力!」事實上在黃仁勳看來,任何人如果理解電腦科學領域的最基本悖論——延遲和吞吐量——就不會說出 scaling law 不再適用那些話。在基於強化學習,具有思維鏈 (chain of thoughts) 能力的大模型的推理過程中,每個新 token 都會在產生之後不斷地被送回上一步重新處理,用黃仁勳自己的比喻叫做「token 的自我懷疑」。他說,「如果你想要聰明的 AI,你就需要高效率地生成 token。如果你花了太長的時間去生成這些 token,你的客戶最後就不用你了。所以你的 token 速度很重要。」為了證明自己的觀點,黃仁勳拿出傳統大語言模型代表 Llama 3.3 70B 和 DeepSeek R1 671B(37B 啟動),讓它們回答同一個複雜問題。前者生成了 439 個 token,但給出的答案根本沒法用,黃仁勳說「400 多個 token 白白浪費了」。後者打開了標誌性的「深度思考」模式,結果生成了高達 8559 個 token,得到的答案令人滿意。但和所用算力相比,答案滿意與否已經沒那麼重要了:具有思維鏈的 R1 推理模型的 token 吞吐量是傳統模型 20 倍,現場演示的用時也比傳統模型長了兩倍,即便如此都要用到 150 倍的算力。如果換做消費級使用場景下,想要在足夠快、能留住使用者的時間窗口內,輸出經過深思熟慮的可靠結果,需要的算力只會成倍增加。怎麼訓練的模型也不太重要了。模型想要在真正的商業和消費應用中高效地進行推理/思考,同樣需要大量的算力。早在之前的財報會上黃仁勳就說過,人們目前看得見和用得上的消費級產品,比如搜尋、生成、推薦功能,還只是大模型能力的九牛一毛。未來的推理/思考型模型將要消耗掉的算力,將令人難以置信。他不得不在自己的主場 GTC 上,完整展現自己對於這件事的「思維鏈」,甚至在台上瘋狂做數學題,算 token 秒速、單機架功耗,再把它們合到一起算出每兆瓦秒 token 吞吐性能,推匯出新架構產品能讓客戶多賺多少錢。發佈會兩個多小時的觀感,70% 說服分析師,30% 面向開發者和企業夥伴。黃仁勳的技術前瞻性的確獨一無二,特別是帶領公司研發 CUDA 技術走上 GPGPU 道路,使得基於圖形計算架構的通用加速計算成為可能。而我們也看到了早年的這些決策,在最近兩年裡以資料中心業務的形態貢獻了輝達高達 90% 的收入,幫助公司實現高達 56% 的淨利潤。但歸根結底,黃仁勳是圖形加速計算布道者,更是顯示卡銷冠。他需要繼續不遺餘力地抬高輝達驅動的 GPU 資料中心——2025 年已經換了一個新名字,叫做 AI 工廠——在企業客戶心目中的價值認知和必要性心智,才能續寫輝達的股價神話。本屆 GTC 上發佈了很多核彈級的新 AI 加速計算方案,軟硬兼施,包括最新 Blackwell Ultra 架構 + NVLink72 互聯技術的伺服器機架產品和超算叢集產品、Dynamo 分佈式推理大模型環境部署軟體、AI 超算單機 DGX Spark/Station、數字-光纖調制解調模組等、Groot N1 人形機器人基礎模型等。這些產品和技術的意義很大,對於不同規模場景的企業建設自己的 AI 工廠,訓練自己垂直領域的獨家超大模型和機器人,能帶來很可觀的效能提升,最終帶來更高的收入。但現場黃仁勳反覆採用的一種敘事邏輯,有些耐人尋味:輝達在大量的企業級 AI 大模型訓練和部署展示中,一而再、再而三地強調大量預先模擬和測試的必要性。具體來說,未來的千行百業在應用 AI 技術的過程中,需要做大量的、反覆的模擬和測試工作。比如一個在工廠流水線工作的機器人,在真人教會他如何擺弄工具之前或者同時,他可以在大模型裡跑成百上千次模擬,包括動作模擬、物理引擎模擬,甚至 GPU 虛擬出的不同環境場景下的重複模擬。而這些模擬測試的內容,毫無意外,也是在輝達圖形計算方案驅動的伺服器裡進行的。輝達的 Omniverse 機器人 AI 作業系統和 Cosmos 真實世界基礎大模型,正是專為這些模擬測試背後的大模型訓練和部署工作而生的。也就是說,在輝達看來,不止訓練大模型,部署和推理大模型,在現實世界的千行百業應用大模型之前,還要進行大量的訓練-推理-再訓練-再推理……不斷循環往復的強化學習過程。每多強化一點,需要的算力都呈指數級提升。黃仁勳打的大概就是這個算盤:從 Hopper 架構升級到 Blackwell,token 吞吐效率已經幾何提升,轉換到客戶的每 token 收入翻了 40 倍。而如果再升級到 2027 年的 Rubin 架構,甚至 2028 年的 Feynman 架構,想都不敢想。The more you buy, the more you save?The more you buy, the more you(we) make!好在黃仁勳還算有良心,直接把這些未來 2-3 年內的新架構的命名、技術細節、預估提升水平都提前告訴好大家了。這樣客戶在籌劃修建自己的 AI 資料中心的時候,可以充分考慮預算、需要性能、工期等客觀因素,來精準地選購自己需要的輝達顯示卡。毋庸置疑的是,輝達需要持續炒熱 GPU 架構革新的意義,加快新架構發佈的節奏,甚至在幾乎一己之力打破了英特爾的摩爾定律之後,又創造了自己每年一升級的 tick-tock 規則。只有客戶的心智被規訓成「永遠認為自己需要更好的顯示卡」,就像每年總忍不住換新 iPhone 那樣,輝達才能有希望保持收入繼續增長,即便最近兩年的增速已經如此瘋狂。就像大會開場前的暖場對談裡所說的:在任何經濟裡,賣水的永遠會成功。最後,有一個疑惑縈繞在腦海裡:順著輝達的邏輯,總有一天,而且應該不會太久,這個世界上被用於訓練和最佳化所有大模型的資料,全都來自於別的大模型甚至這個大模型自己。機器都 scale up 了,人是不是就該 out 了?(APPSO)